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1 Das klassisctie Prozessormodell 

In dieser Schrift wird cin Prozessormodell fur rckorifigurierbare Architekturen vor- 
geschlagcn, das in wesentlichen Punkten an das Modell ernes klassisvhcn Pru fea- 
sors angelehnt ist, Zxan besseren Verstandnis wird zunachst das klassische Modell 
naher brsttfiohtet. Hahei wind auf die Betrachtung prozessorextemer Ressourcen 
(z. B. Hauptspeicher fur Programm und Daten etc.) verzichtct 

Ein Prozessor fuhrt In einem Prozefi em Programm aus. Das Programm besteht 
dabei aus einer endlichcn Menge von Befehlen (Diese Menge darr* Hlcmente mehr- 
&ch enthalten) sowie Informationen ttber die Reihenfolge, in der Befehle aufein- 
andcrfolgcn konncn, Diese Rtfhcnfblge wird primSr Ober die lineare Anordnung 
der Befehle im Progranxcnspeichcr und die Ziele von Spmngbefbhlen festgelegt 
Befehle warden dabei ublicherweise uber ihre Adrcssc identifisriert. Als Beispiei 
zeigt Abbildung 1 (a) cin Programm in VAX-Assembler zur Exponentiation. 

Man kann ein Programm auch als gerichtctcn Graphen auflassca, wobei die Be- 
fchlt; die KnuLen bildcn, uutl die ReibcjuifCfJgc als Kanicn des Graphcn modcllicrt 
wird. Dieser Graph wird in Abbildung 1 (b) gezeigt Der Graph besitzt dabei einen 
fttndeutigen Start- und einen dndeutigen Endknotcn. (Im Bild nicht gezeigt. durch 
die Ffcilc angedeutet) Die Kanten konnen zusatzlich mit Ubergangswahischein- 
lichkeiten raarkiert werden. Diese Information kann dann zur Sprungvorhersage 
genutzt werden, 

Durch die lineare Anordnung der Befehle im Speichcr ergeben sich mchr Ab- 
hangigkoiten als xmbedingt notwendig. So Bind z.B. im gezeigten Beispiei die 
Befehle DECL und MUIX2 voneinander unabhangig. Dies geht aus dem Graphen 
in Abbildung 1 (b) nicht hervor. Das Modell kann entsprechend erweitert werden 
^n^^^ durch Aufteil- und Zusainmen^STrngsknotcn. Dies ist in Abbildung 1 (c) gezeigt 

Heutige Prossessoren erkennen derartige MfigHchkeiten derParallelausfuhrung zurn 
Ifcil in Hardware und verUuleu die OperaLiunen uuf verbuhiedeue Reuben werko. 

Fiir die weitcrcn Betrachtungen wird das Modell aus Abbildung 1 (b) vcrwen- 
det. Die Behandluns der zusatzlichen Kompteritat des Aufteilens und Zusammen- 
fassens wird auf einen spateren Zeitpunki verschoben. 

PJn Prozcfl braucht zu seiner Ausfxihrung auBer dem Programm wcitere Res- 
sourcen. Diese stnd innerhalb des Prozessors die Register und die Status-Flags. 
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MOVL #1.R2 

10$:TSTL R1 

BEQL 20$ 

MULL2 R2.R0 

DECL R1 

BRB 10$ 

20$: 



(a) VAX-Assembler (fa) direkter Graph (c) parameter Graph 

Abbildung 1 : Einfaehes Beispielprogramm (Exponentiation) 

Der Program Counter (PC) ist nicht TeSI dieser Ressourcen, er wird letfglich be- 
notigt, um eine Teilmenge der Kanten des Graphen zu realisicren. 

Die obcu angesprocheueu Ressotmicn dienen dazu, Informationen zwischen 
den einzclnen Befehlen des Programms zu ubertaittelu, 

Es ist Aufgabe des Betriebssystems, dauVzu sorgen, daS einem Pra?*& die 
zu seiner Ausfuhrung benotigten Ressourcen zur Verfugung stehen und bei seiner 
Beendigimg wieder freigegeben werden. Heutige Prozessoren besiteen ublicher- 
weise nur efaen Registersatz, so daB our ein ProzeB gleicbzeitig auf dem Processor 
ablaufenkann. 

Man kann sich leicht voretellcu, dafl die Befehle von zwei untcrsohicdlichen 
Prozessen in beliebiger Rdhenfblge durchmischt aiisgefuhrt werden kdnncn, so- 
lange beidVProzesse disjunkte Ressourcen verwenden (z. B. Prozefl 1 verwendet 
die Register 0-3, ProzeB 2 Register 4-7). 

Befehle eines Prozessors haben ublicherweise die folgenden Eigenschaften; 

• Ein Bcfehl wird wakrend der Ausfuhrung nicht iinterbrochcn, 

« Die Ausfuhrungszeii alter Befehle uberschreitet einen gewissen Maxtmal- 
wert nicht 

• UngGltige Befehle werden vom Prozcssor erkaimt, 

2 Ubertragimg des Modelte auf die XPP-Architektur 

Die X^^Aichitektur ist eine rekonngurierbare ProzessorarcMtektur, die wesent- 
Hen durch die Patent(e)(anmeldungen) PACTOl, 02, 03, 04, 05, 07, 08, 09, 10, 
13, 17, 22, 23, 24 de&iiert ist, Di es © Schriften werden su OfienborungoawcoIfiDn 
vblliimfanglich ejtigcgieidert. Ebemnils wird aufPACTl 1, 20, 27 verwiescxx, in de- 
nen entsprechende Hochsprachen-Compiler beschrieben sind, sowie auf PACT 21, 
worin ein entsprechender Debugger beschrieben ist Auch diese Schriiten werden 
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zu OfPciibarLingsawecken vollstandig eingegliedert. Samtliche offenen Prioritaten 
aus den vorgenaimttfn. g^firi-fti\rt wrrdrtn htarmit hrymspnirht*J|(&" 

Der klassische Befehl wind ersetzt durch eine. Konfigu ration im bekannten Sin- 
ne, im folgenden Komplex-Befehl (Complex Intruction Word, CIW) genaunt Die 
Kanten den Graphen in Abbildung I (b) werden rcalisicrt durch Events an die CM- 
Ports. Damit kann ein vollst&ndiges Programm realisiert werden. 

Pur den Rcgistcrsatz cinca klasaisch.cn. Prozcssors glbt cs z\ir Zcit nocK kcittC 
Entsprechung auf der XPP-Architektur. Die benotigten Eigenschaften lassen sich 
abcr dennoch beschreiben: 

• Da die XPU im wesentlichen auf Datenstromen arbeitct, muB cm Register in 
der J -age sein, einen Datenstrnm b7W. Teile davon m speichern. 

• Bin Register muB allbzicrt und fteigegeben werden konnen. Dabei muB 
es 30 langc bclcgt blcibcu wis da* Piogxanmi auf der XPU laid*. (HW- 
TJnterstQtzung der Ressourceirverwaltung desBetriebssystems.) 

• Crleicnzeltiges .Lesen und Schreiben (Read-Modiry-Write) desselben Regi- 
sters sollte xnCglicn seixi, 

Es wird vorgeschlagen, eutsprechend modifizierte'RAM-Objekce zu verwenden, 
Dicsc sollcn zunachst ais Register verwendet werden. Eine ausfiihrliche Beschrei- 
bung d»» Regislei-ObjekUs Jmdesl aiuh in Absuhnitt 4. 

Eine Konfiguration (CIW) wird in dem Moment vom. Array cntfemt, in dem 
sic fiber einen Event an einen CM-Port das nSehste CIW anfordert Der Reconfis- 
Event kann dabei entweder fiber den Reconfig-Poit eines ALU-Objekts oder impli- 
zit vom Fort-Objekt erzeugt werden. In spateren Versionen sollte dies grundsatz- 
Hch vom Pott-Objckt aus crfolgcu. 

Ebenso Wie Befehle auf eiuem klassischen PrOzessor nicht unterbrochen wer- 
den, lauffc auch ein CIW auf der XPU ohne IJnterbrechung bis es daa nachste OW 
iiber einen CM-Port anfordert. Es wird nicht vorzeitig beendet Um dennoch einen 
regelmaBigen Befehlswechsel sicherstellen zu kornien (dicser wird spater fur Mul- 
titasking bsnStigt), wird die maximale Ausfuhrungszeit eines CIW nach oben be- 
schrankt. Damit. wird die zweite Eigenschaft eines Befehls gefordert Es 1st Auf- 
gabe des Compilers, dafGr zu sorgen, daD jedes e^eugie CIW. dicser Bediugung 
genfigt Ein CIW, das dicsc Bcdingung verletzt, is* ein ungfiltiger Befehl. Er kann 
von der Hardware wihrend der Ausfuhrung z. B. fiber einen Watchdog-Timer er- 
kannc werden. In diesern Pall wird das ungultige CIW fiber einen Reconfig beendet 
und eine Exception ao. das Betriebssystem geschickt 

Da die CIWs sehr Iang sind, sind dementeprechend auch die Justruction-Fetch- 
(Config-Request bis Code ist im FILMO-Cache) und Instruction-Decode-Zeiten 
(Vertelliirie dp.r Cnnfig-nahTn vow FILMO-Cache in die faarifi s -R«»gister der Ob- 
jekte) sehr lang. Dadurch 1st die' Auslastung der Execution Units (Array) durch 
einen Prozefl nicht sehr hooh. Wie dieses Problem mit mehrerenProzessen gel6st 
werden kann, wird in Abschnitt 6 gezeigt 

^ 3 
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Abbildung 2: Beispiel far ein Unterprogmmm mit Aufruf 





Abbildung 3: Dynamisch veranderter Graph wShrend der AusfQhrung 

r 

3 Unterprogramme 

Ein Unterprogramm in der Graphendarstcilung 1st cin Teilgrapb eines Program™ 
mit eindeutig bestimrnten Eingangsknoten. Die Xante des Unterprograrrnnaufruft 
innerhalb des Graphen ist dadurcb statisch bekannt Die weiterfuhrende Kante am 
Ausgangaknoten des Unterprograrnms 1st jedoch nicht statisch bekannt In Abbil- 
dung 2 wird dies vcrdeutlicht Die Kantcn vom Hauptprogramm zum Unterpro- 
gramm s*od vorhanden, die Fortfuhmng aach dem Untcrprograrnm ist jedoch' im 
Unteiprograrnm nicht bekannt Die jeweilige Fortfuhrung 1st fest mit dem Unter* 
prcgrammaufruf veibunden (durch gestrichelte bzw. gepunktete Linien markicrt); 
Sie muft vor dem Erreichen des Eingangsknotens in geeigneter Weise in don Gra- 
phen eingeffigt werden. Dies ist in Abbildung 3 verdeutlicht 

In klassischcu Prvzcssyrou gesehieht dies Oblichexweise daduroh, daB beim 
.Unterprogfammaufruf (CaU) die Adresse des auf das Unterprogramm folgenden 
Befehls (das ist genau.dic fchtertde: Kante) auf einem Call-StaoV ahgftlftgr w\rd< 
Von dort kann sie beim Rucksprung (Return) gcholt werden. 

Ubertragen auf die XPU wird also ein Stack-Objekt benotigt Dies ist genauso 
wie.die Kegistex-Objekte eine ProzeJ5-Ressource und wird gcuauso verwaltet. Das 
CTW, das bei seiner Beendigung den Unteiprogrammaufruf veraalatft, konfiguriert 
die Ruckeprun g-Kan to auf das Stack-Objekt Durch einen Event voranlaBt das 



4 
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tstztsr Bnfcr 
gktucrfijsf Eintragr 



(a) Zeiger vor der Leseoperatlon (b) Zelger nach der Leseoperatlon 
Abbildun£ 4: Beispiel fur cine Register-Leseoperation 

letzte CIW des Unterprogranaos das Stack-Objekt, den ober&ten Eintrag vom Stack 
zu cntfcrnon und ols ConflgrRcqtaeet an deh CM zu schickeflu 

Eine Implementicrung kann beispiel sweisc zunachst. uber eine Software-La- 
sung ksneibalb des CM erfolgen. Dabei wird eine spezieite Config-ID (z.B. -1) als 
Ruckspnwg rcserviert. Wenn der CM dicse ID erhalt* ersetzt er sie durch den obcr- 
stcn Eintrag seines lokal verwalteten Stacks. SpSter kann dies durch. ein eigenes 
Objckt odcr ein catsprechemd crweitcrtes Port-Objckt erfoigen. 

Stack-Overflow sqwie Stack-Underflow sind Exceptions, die an das Betriebs- 
Bystero wettcrgegeben werden. 



4 I>as Register-Objekt 

Ein klassisches Prozessorrcgister erithalt zu jedem'Zeitpunkt ein Datenwort. Ein 
Befehl kann den Regtstcrinhalt Lesen, schreiben oder verandem (Read-Modity- 
Write). Ein XPU-Register sollte die gleichen Eigenschaften aufweisen, allerdings 
entMlt <=»s start einez chxzelnen Wertes einen Wertevektor oder Telle davon. 

Oblicherweise durfte die Organisation cities XPU-Registers als eine Art FIFO 
die gunsugste Mdglichkeit sein. In bestimmten Fa'llen kann aber auch wahlfreier 
ZugrifT erforderlich werden. Im f olgenden werden die drei oben angesprochenen 
RegistexzugrifFe im einzclncn crlautcrt. Dabei wird oin wahlftoicr Zugriff rdcht 
bctmehtet 

I 

T^Kaziigriff Beim Start emes ClTW enthalt das Register einen Datenvelctor lmhe- 
kannter Lange. Die einzelnen Elemente des Vektors werden sequentiell entnom- 
men. Dabei wird beira letzten Element des Vektors ein Event generiert, der anzeigt, 
daJ3 das Register jetzt leer i$t und das CIW tcrminiercn kann, 

Der Zustand dea Registers kann dabei mit 3 Zeigern ohatttoerisiert werden, 
eie zeigen au£ de?n erDt©n, let5ton wd aktuollen Eratpag im Datenvektor. Die Stel 
lung der Zeiger zu Beginn eines CIW wird beispielnaft in Abbildung 4 (a) gezeigt 
Dabei stelit der Zeiger fiir den aktuellen Eintrag auf dem ersten Eintrag. 



— t — ■■ ' - 

n 20.01.02 20:34 FAX03 Nr: 46521 1 von NVS:FAXG3.I0.01 01/089589981 18 (Seite 6 von 18) 



In Abbildung 4 (b) zeigt in einem Beispiel, wie die Zcigerstellung eines Regi- 
sters am Ende eines CIW aussehen kann. Im dort gezeigten Fall wurde der Vektor 
• nicht voilstandig gelesen. . 

Nun rauB entschicdcn werden, was mit dem Regis terinhalt geschieht. Ea glbt 
die fblgehden MSglichkeiten: 

• Das Register wird geleert Alle nicht verarbeiteten Daten werden geldscht . 
Det Zeiger fur den aktuetlen Eintrag wird auf den letzten Eintrag gesetzt 

• Das Register wird auf den Ursprungszustand sniruckeesetzt Dadurch temn 
das nachsto CPW wicdcr. auf den voJlen Datenvektor zugreifen. Der Zeiger 
fur den aktuellen Eintrag wird auf den ersten Eintrag fcuruckgesetzt 

• Nur die bcrcits gelescnen Daten werden aus dem Register enrfcrnt Die un~ 
gelesenen Daten stchen fur das nachste CIW zur Verftlgung. Die Zeiger 
werden dabei nicht verandert 

Im Anschlufl daran werden die Wcrtc swischen dem ersten Eintrag und dem 
aktdellen Eintrag aus dem Register entfernt Sie stehen fur weitere Operationen 
nicht mehr zur Vcrfilgung. 

Dies driue Mogliehkeit 1st tnsbesondere dann interessanr, wenn ein CIW auf-. 
grund der maximalen Ausifilhrungszclt fur ein CIW den Datenvektor nicht voil- 
standig verarbeiten Icann. Siehe hierzn aunh Abschnht 7. 

Schreibzugriff HJcr werden Daten sequentiell in das Register geschrieben. Da- 
bei wird ein Event generiert, wenn der Fullstand des Registers einen beslimmten 
Wert erreicht Je nach CIW kann dies eine der folgenden Mogiichkeiten sein: 

• Das Register ist voUstandig gefullt 

- sind noch genau n EjbcrtrSge im Vektor firci. Dies berOckcichtigfc die La- 
tenzzeit im CIW, durch die noch n Werte nach dem Event auf das Register 
laufeiL 

• Das Register ist zu m% gefullt, 

Bin CTW, das versucht, auf ein voUstandig gelQUtes Register zu schreiben, ist 
ungQltig und wird mit einer Exception beendet (Illegal Opcode). 

, Beim Start des CIW aiufi festgelegt sein, in welohem Zuatand fiich das Register 
befindet Abbildung 5 (a) zeigt ein Register vor einem Schreibzugriff; das noch Da- 
ten enthSIt. Bcgtehen.de Daten kdnnen gelSscht werden, so daB der Schreibzugriflf 
mit einem leeren Vektor beginnt (Abbildung 5 (b)). Alternate kftrmen die ge- 
schriebenen Daten auch an den bestehenden Inhalt angehangt werden. Dies zeigt 
Abbildung 5 (c). Dies ist dann intercssant, wenu das» vorhBrgehen.de CIW nicht den 
kompletten Vektor crzeugen konnte aufgrund der maximalen AiistUlbrungszeit 

Der Zustand des Registers nach erfoigter Schreihoperattnn Abbildung 
5 (d) bzw. (e). Die neu geschricbenen Daten sind dabei schraffiert gekennzeichnet. 
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<9) 



(b) 





Legende: 

a aktueller Ontrag 
\ letter Eintrag 
e erster Eintrag 



a.i- 




a.1- 



«0 fe) 
Abbilduug 5: Belspiel Jtir dine Itegister-Schreiboperatdcw 

paralleler SchreibVLesezugriff *Die BeschranJkung aufreine Schrcib- bzw. Le- 
sezugriflfe erfbrdert eine hohere Registerzahl als nStig. Wenn einem Register durch 
T^sftangriflh TT>atexi entnOmmen werden, entsteht dadurch Plate, in dem Schreibda- 
ten aufgenommen werden konnen. Es mufl lediglich sicheigestellt werden, dafl 
geschrieberie Daten nicht. vom gleichen CIW wieder gelcsen werden kSnnen! Da^ 
zu wird in den FIFO eine virtuelle Trermiinie dngefUhrt. Das Register wurde 
vollstandig gelesen, wenn diese Trennlinic am Ausgang des FIFOs angelangt ist. 
Konn ein Sohrcibsugriff fUr oin Datcnwort nicht a^gefiihrt werden, well dad Re- 
gister noch mit ungclcsenen Lesedaten blockiert ist, wird das CIW beendet und 
eine Illegal Opcode Exception crzeugt Das Verhalten des Registers ist ansonsten 
genausb wie bei Schreib- und LesezugrhT erlautert 

Zusatzlich muS spezifeiert werden, was mit dor virtuellen Trennlinie zwischen 
Lese- una SennsibdaLen geschicht. Diese kann entwedcr an der Stelle verbleibcn, 
wo sie gerade steht Dies ist dann niitzlich, wenn ein CIW aufgrund der Zeitbe-' 
schrankung beendet werde muB. Altemativ wird die Trennlmie an das Ende alJer 
Daten gesetet 

Kombinierte SchreibVLesezugritTc sind problernatisob, wenn das CIW mit ci- 
ner Exception beendet wurde- In diescm Fall ist es nicht mehr moglich, die Re- 
gister auf ihre Wcrtc bcim Start des CIW zuiudkzustellert Das Debugging wird 
dadweh mindestens erschwert, elohe auch Absohnitt S. 

Abbildung 6 zeigt die Funktionsweise an einem Beispiel. Zn Beginn enthait 
das Register Daten (a), die im folgenden teilweise fb) bzw. vollstandig (c) gele- 
sen werden. Neu geschriebene und gelesene Eintrage sind dabei durch Schraffur 
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(a) 
Legend*: 

a aktueller Cintag 
I letzter Eintrag 
e • ersler Eintrag 
v virtuelie'Grenz© 

neu geschrieben 



(b) 



(c) 




E§S1 geiesen (d) (^) 

Abbildung 6: Beispiel fur elne Rcgister-SchreibVLeseoperalion , 

gekennzeichnet Die Teilbildcr (d) wjd (e) zeigen den Zustand des Registers nach 
dem notwcndigega Zeiger-Update. Dies ist kein cxp! jziter Schritt, sondem wird hier 
nur zur Verdeutlicaung dargestcllt, Uie gelesenen Eintr&gc mussen sofort entfernt 
werden, ura Platz fur die neu zu schreibenden Eintrage zu schaflfcn, 

Ein ProzeB muB jcdes benotigte Register allozieren, bevor er es verwenden 
kann. Dies gesctoeht uber ein zweites CM-Interfece des Registers. Dort wird auch 
eingetragen, zu welchem ProzeB da$ Register jetet gchort. Diese Konfiguration 
blcibt auch fiber implizite Recoufigs hinweg> erhalten. Das Register muB explizlt 
vom CM fixngegeben worden. Diea geachicht bci dor Bccndigung eines Prozcsscs. 

Mit der Konfiguraiion jedes CIWs muB den Registern mitgeteilt werden zu 
welchem ProzeB das CIW geh6rt Dies ermoglicht das Umschalten zwischen meh- 
men Registersatzen. Das Vcrfabron wird. genauer im Abscbnitt 6 beschrieben. 

5 Interrupts 

Bci Interrupts muD zwiachen zwei untcrachiedlichen Type* unterschieden werden. 
Zum einen gibt cs die Hardware-Interrupts, wo der Prozessor auf ein externes Er- 
ci^nis reagieren muB. Diesc werden ubkenerweisc vom Betnehwystrrm bearbeitet 
und sind fur die laufenden Prozcsse nfcht sichtbax Ste soilen hier niobt weiter 
behandelt werden. 

Der zweite Typ sind die Softwarellnterrupts. Diese werden haufig benutzt, urn 
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asynchrone Inleraktionen zwischen ProzeB und Betriebssystem zu realisieren. So 
ist es z. B. unter VMS mSglich, eine Leseanfordeiung an das Betriebssystem zu 
schickcn, ohne auf die eigentlicben Datcn warten, Sobald die Daten vorhanden 
sind, unterbricht das Betriejjssystem das laufende Programm und raft asynchron 
eine Prozedur des P* ogramms auf. Dieses Verfahren nennt sich dort Asynchronous 
System Trap (AST). 

tHcsca .Vfcrfahrcn kann in glcichcr Form auf dor XPU angowondct women. 
Hierzu ist Unterstiltzung im CM vorzusehetL Der CM weiB, ob cine asynchrone 
Routine fur Cmcn PrOzcB aufgcrufbn werden muB. In diesem Fall wird der naehstc 
Request, der vom Array kommt, nicht direkt abgearbeitet, sondern gespeichert 
Stattdessen wlrd eine Folgc von CIWs eingefugt, die zun&chst die Prozessorstatus 
(die Re^lcrinlttdle) aicliern, die asynubronc Routine ausffihren und dann die Re- 
gisterijihaite wiederheretellen. Im Anschlufl damn kann der ursprungliche Request 
abgearbeitet werden. . 

6 Multitasking 

In Abschnitt 2 'wurde festgestellt, daB die XPU-Architektur mit nur einem Pro- 
zeB nicht ausgelastet werden Jcann aufgrund der Lange der CIWs sehr hohe Lade- 
und Dckodierungszeiten auftxeten. Dieses Problem kann durch die gleichzeitige 
Ausfuhrung mehrerer ProzeesG gelSst werden. Hierbei warden auf der XPU nwhrc- 
re Registersatze vorgesehen, damit beim Kontextwechsel cin&ch zwischen den Re- 
gistersatzen umgeschaltet werden kann und keine aufwendigen Register-FrcHaum- 
und -Ladc-Operationen erfbrderlich werden. 

Wahrend der Ausfuhung von Befcblcn anderer Prozesse steht genugend Zeit 
zurVcrfBgung, urn den nachsten Bcfehl des aktucUcn Ptozesscs zu holenuud abtsi 
den FILMO an die Objekte jzu verteilen. Die optnnale Anzahl an Registcrsatzen 
muB dabei in Abhangigkeit von der durchschnittlichen Ausfuhrungszeit eines CTW 
und den durchschnittlichen Lade- und Dekodicrzeiten der CIWs bestimmt werden, 
Dabei kann Latenzzeit problemlos durch eine groflerc Anzahl Registersatze abge- 
fcugen werden. Wichtig fur die funkuon des Vertahrens ist, <m die durchschnittli- 
che CW-Laufzeit grd&er ist als die jewcils eEektiv benptigte Zeit zum Laden bzw. 
Delcnriierftn des CTW. 

Die korrespondierenden Register der unterschiedlichen Registersatze liegen 
dabei fur den Programmierer auf derselben Objektadresse. Dabei konnen zu 
dem Zeitpunkt immer nur die Register cines Registersatzes verwendet werden, 

Der Kontextwechsel zwischen den Registcrsatzen kann dadurch realisiert wer- 
den, daB vor jedeni CtW d*r sntsprcchend© Kontext aii die Objekte Uberlragen 
wird, Pieses Verfahren wurde bereits in Abschnitt 4 angesprochen. 

Im allgcmeinen werden auf einem System mehr Prozesse vorhanden scin ais 
Registersatze auf dem Prozessor. Das bedeuler, daB gelegentlich ein ProzeB vom 
Prozessor entfemt wcidtu muB. Dazu win! ahnlich wie beim Software-Interrupt 
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eine Kante den Programmgraphen vom CM aufgetrennt Die Registerinhalte des 
Prozesses werden fcesichert und die vom ProzeB allozierten ProzesVmrrefisniiroen 
l(Regteter, Stack-Objekt, etc,) wieder freigegeben.' Die so fteigewotticaen Res- 
sourcen wer den nun von einem anderen ProzeB alloziert. Dann werden die fur die- 
sen PruzdS gyspeicherten Registerinhalte wieder zuruckgcschrieben und der Pro- 
zcfi an dessen aufgetrennter Kante fortgesetzt. . 

Das Sichern und RiicTclflde.n ri>.r Registerinhalte franti dabei uber ClWe orfbl- 
gen. 

7 ClWundSchleifen 

Aufgrund der oben geforderten Eigenschaffc, daB cin CIW spatestens nach einer 
gewissen Maximalanzahl an Takten tettninieren muB > konnen allgemeine Schlei- 
fen nxcht ohne weiierca in cixx CIW ubcrscfast werden. Es isi ixuiwr inugliuh, den 
ScMeifenruinpf m ein CIW zu tibersctzenund die Schleifenfcontrolle Uber Rekonfi- 
guration ab2awic1celn. Dies kostet jedochjegliche Pcrfonnance. Diesec Abschnitt 
zeigt, wie eine SchJeife so umgeformt. werden knnn, daB die Anzahl der Rekonfi- 
gurationen minimicrt wir& 

tm fblgcndcn wlrd von folgendern Prognunmsttick ansgegangen: ; 

while (condition) { 
something; 

■ } 

Dabei soil sowohi die Lautzeit von condition wie something bestimmt odcr 
nach oben abgescMtzt werden konncn. Die Schleife kann nun wie folgt umformu- 
iiert werden: , 

while (1) { 

if <i condition) goto finish; 

something; 

} 

finish i ( 

Nun kann der Schlcjfenrumpf so oft itericrt werden wie es die maximale Lauf- 
zeit eines CIW zulaBt Hietzu wird eine ncuc Variable s eingcfilhrt, die weder m 
condition noch in something vorkommt Das Programs sieht nun folgea- 
dermalien aus; 

while (X) { . 1 • 

for.(z=0; z<MAX? z++) { 

if ( 'condition) goto finish; 

} ' 

} 

finish: 

10 ' 
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Die for-Schleife besitzt eine vom Compiler bestimmbare maximale LauEccit. Sie 
kann' deshalb auf ein OTW ahgebildet werden. MAX wird vom Compiler in Ab- 
Mngigkeit von der maximalen Laufzeit und den Einzellaufoeiten der Anweisungen 
bestimrat. 

Das so entsteheude CIW bat zwei Ausgangskanten. Der Ausgang ubcr das 
goto fuhrt zum nachsten CIW, der Ausgang uber das regular© Bade des for biJdet 
oine Knnte auf sioh eelbet. Dumber wird die Endlosschleife re&listert. 

8 Debugging 

Im klassischen Prozessor erfblgt das Debugging auf Befehlsbasis, d.h. der Ablauf 
eines Programms kant) jedcrzeit zwischsn zwei Befehlen unterbrochen werden. An 
diesen (Jriterbrechungspimkten hat der Programmiercr Zugriff auf die Register. Er 
k»rm sic aiiselien uud modifi&iorco* Unterbrechungspunkte konncn auf vcrschie- 
dene Art und Weise realisiert werden. 2um einen kann das Programm modifiziert 
werden, <L h. der Befehl, vor dem angchalten werden soil., wird durch andere Be- 
fehle ersetzt, die den Debugger aufrufen. Im Graphenmodell ehtspricht dies dem. 
Austausch cines Knotens durch einen anderen Knoten oder einen Teilgraphen, Bi- 
ne andere Methods beruht auf zusatzlicher Hardware-Unterstutz;u«g, Hierbci witd 
dem Processor mitgeteilt, bei welchem Befehl das Programm unterbrochen wer- 
den soli. Der entsprechende Befshl wird d&bei ublioherweise ube* seine Adf&sse 
identificrt 

Beide MogHchkeiten stehen auch auf der XPU zur Verfugung. Bin CIW kann 
jederzeit vom Debugger durch ein anderes CIW ersetct werden. Dieses CIW kann 
z. B> die Registerinhalte in den Hauptspeicher kopieren, wo diese entweder mit ei- 

ncm XPU-cxternCn Debugger analysicrt werden konncn. Altcmativ kann der De- 
bugger auch auf der XPU ablaufen. Weiterhin kann eine Hardware-Unterstiitzung 
im CM vorgesehen werden, die CIWs bei deren. Request anhand der ID identi fiziert 
und dann den Debugger aufhrft. 

Zusatzlich kann eine Unterbrechung auch c?n ciocr Kantc des Graphen fest- 
gemacht werden, da dicsc im Gegensatz zu klassischem Programmcode expliik 
vorliegen. 

Die. nhert beschriebene Art. des Debugging ifit fur klasftTsehe Prrtrasaoren vnll- 
standig ausreichend, da die Befehle zumeist sehr einfach sind Eine hinreichend 
feine Auflosung der beobachtbaren Punkte ist gegeberi. Weiterhin Vnnn s i c h der 
tProgrammierer darauf verlassen, daB die einzelnen Befehle korrekt sind. (DaiTir 
sorgt ablicherweise der Prozcssorhcrstcllcc) Auf der XPU hingegen definiert der 
Pjpogrammicrcr sf.ch die Prozoasorbpfohlc selbst. Dcmcnteprcchcnd kSnncn die so 
definicrten Befehle fehlerhafl sein. Ein Debugging der einzelnen Befehle wird also 
erforderlich, im folgenden als Microcode-Debugging bezeichnet 

Microcode-Debugging, eifordeit einen exheblichen Aufwand, da der Progratn- 
mierer ZugriflF auf alle internen Register und Datenpfade des Processors haben 
muB. Eine Hardware-Unterstiirzung hicrftir ist sehr aufwendig und zu reinen De- 
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bugging-Zwecken nicht sinnvoll. Altemativ kann der Zustand des Prozessors vor 
dcui fraglichen Befehl gesichcrt werden und die Ausfuhrung des eigentlichen Be- 
fehls auf einem Software-Simulator erfolgen. 

Bei gccignetem Prdgrammietmode]] kann der Debugger auch bei Aufhreten ei- 
ncr Exception uiiicrludb cine* Bbfchis auffeerctfen werden. Hierzu ist es notwendig, 
daB die Register auf den Zustand vor dem Start <|es Befetfs zuruckgestellt weiden 
konncn uild sonst keine Sciteneffekte aufgfvfxcten sind. Dana kann der fragliche 
Befehl ixn Software-Simulator gestaxtet werden mid bis zum Auftreten der Excep- 
tion simuliert werdcri, 

9 Verteilter Konfigurations-Cache 

Aufgrund des zentralen Konfigurations-Caches beim FILMO dauert es vcrhalt- 
nismaflig lange, bis ein« Konfiguration aiif die einzelnen Objekte einer PAC vcrtcilt 
ist. Dieser Abschnitt beschreibt nun ein Vcrfahren, urn diese Zeit abzukGizen. 

Dazu crhalt jedes Objekt semen eigenen lokalen Cache. Dieser speichert die 
K^guranomdatenverschiete^^ Objekt Auch 

die Tatsaohe, daB ein Obj ekt von einer Konfiguration keine Daten erhalten hat, wild 
gespeichert Fur jedc angcfcrdcrtc Kenfiguration kauuu der Cauhc dadurch eine def 
folgcoden Aussagen trcffbn; 

• Die Konfiguxationsdatcn sind Im Cacl w vurliandcn. 

• Ffir diese Konfiguration werden keine Daten benotigt 

• Qber diese Konfiguration ist nichts bekannt 

• Eo werden Konfiguxutionsdaten benotigt, diese sind jedoch nicht im Cache 
verfiiebar, (z. B. aufgrund der LSnge der Konfiguration, RAM-Preload eta) 

Die lctztcn boiden Aussagen kSimen dabei zusanuncngeiaflt wctUeu. Bei beiden 
muB der Code oder die Tatsache, daB kein Code bendtigt wird angefordcrt werden. 

Ein Aufbrag fur eine Konfiguration wird dabei. vom FILMO als Broadcast auf 
dem Tcstbus an alle Objekte verscMckt. Wenn alle Objekte die Konfiguration in 
ihrem lokalen Cache haben, kann diese per Broadcast auf dem Configbus gestartet 
werden. Im Idealfall erfordcrt der Start einer Konfiguration also mir die Obctha- 
guog eines einzigen Konfigurations wortes. 

Snlltfl ein Ohjftlcf nicht ilber die Konfigurationsdaten verfugen, muB dieses on 
dem FILMO zurQckgemeldet werden. Im einfachsten Fall geschieht dies uber ein 
Reject auf der vorbandendenen Leitung, Der FILMO weifl dann aufgrund dieses 
Signals, daB mindestens einem Objekt der PAC die Konfigurationsdaten fchlen. Er 
kann dann die kompletten Daten Gbertragen. Alternativ kann auch jedes Objekt ge- 
trennt einen Request fur die Daten auslo$cn- Hior muB cin gecigneter Koiuproini/3 
zwischen der. Anzahl der Requests und der Menge der zu ubertragenden Konfigu- 
ratiohsdaten gefunden werden. Kleine PAC-GrdBen sind dabei auch aufgrund der 
geringeren Latent auf dem Konfigurationsbus von Vorteil. 

12 
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ack out datajn 




ack in data out 
Abbildung 7: modifi^'erf* FrFO-Stufe 

Aolbau des Caches' Ein Cache hesteht fmmcr »us zwei Teilen. t)^r eine Teil 
enthalt die eigentlichen Daten (hier die Konfiguratxonswortc), der andere Teil crit- 
hait Verwaltungsinfotmation (hier die enthalteneh Konjfigurationsnunnnera sowic 
ihr Alter). Zimachst word der Verwalturigsteil beschrieben. 

Wunscbcnswert ist, daB die amlangstcn nicht mehrbenutztc Konffeurationaus 
dem Cache entfemt wird, wenn dica notwondig ward. Solangc nur ncuc Konfi^ujm- 
tionen angefordcrt werdeu, sind die Eintrage im FIFO korrekt sortiert. Sollte eine 
Kcnfigurarion angefordert werden, fur die bereits ein Kintrag im FIFO vorhanden 
ist, mufl dieser Eintrag aus dem FIFO entfernt wentex*. Er wird dann wie der neu am 
Endc eingefugt. Eine fur diesen Zweck modifizierte FIFO-Stufe zeigtlAbbitdung 
7. Die schraffierten Module sind dabei zusfitzlica zu elner nonnaleu FIFO-Stufe. 
Sie vergleichen den Inhalt der Stufe mit der geforderten Konfigurationsnurnmer 
und erzeugen hei ftleichhek ein act far die Stnfe. Dam it werden die Dat*** der 
Stufe gelesen und alls anderen Werte rutschen urn eine Stufe nacli. 

Die Eintrage in diesem FIFO enthalten aufier der Konfifiurationsnummer wei- 
texe Intbrrnatioricn, Dies tst entweder ein Zeiger (Adresse) auf die Kottnguratioris- 
daten oder eine der beiden Moglichkeitcn „keine Daten erfbrderlich" (z.B. als 0 
codiort) bzw. „Daten mticsen angefordert werden" (sl B. -l) r X>i$ Zusammcnschal- 
tung mehrerer Stufen zeigt Abbildung8. 

Dabei wird die Read-Chain mit tier geforderten Konngiirationnummer und dem 
Status - I initialisiert Dieser Wert kommt unver&ndert genau da™ am Ausgang der 
Read-Chain heraus, wenn die KonfiguratioDSrxurnmer nicht im FIFO gespeichert 
ist, Daiuil kaun dci Ausgmig'Uer Read-Chain in jedem Fall dazu verwendet wer- 
den, die Konflgurationsniimmer auf den FIFO zu Schreiben. Das Signal ack_in 
wird dann. aktiviert, wenn der FIFO vnll isf nnd sich die gesuchte konfigurations- 
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Abhllrhmg ft- Verv^ltungsJFEFO fur lokalen Cache 

nurnmer nicTit im- FTFO hefindet Dies ist der einzige Fall, wo der attest e Bintrng 
aus dem FIFO entfernt werden muJ3, weil der Vcrwaltungsspeichcr voll ist 

Der eigentliche Datenspeicher wird aufgrund der unterschiedlioheti Anzaht der 
Konfigurationsworcef pro Konflguration als verkette Liste organisiert, Andexe Im- 
plcmentierungen sind denkbar Eine yerkettete Liste kaxm als RAM eiufech da- 
durch implemcntiert wcrdcn, dafl zusatdlch «u den Dateu Jewells die Adxvsse des 
tiachfolgenden Datenwortes abgelegt wird. Zusatzlich zu den Listen fur die d- 
gentlichen Konngurationen wird cine Frei-Liste gefuhrt, io derails nicht benutztca 
Eintrage aufgefuhrt sind Diese muB nach einem Reset zutiachst initialisiert wer- 
den. 

Abbildung 9 zeigt einen mOglichen Cache-Ihhalt wahreod des Betriebs. Freie 
Eintrage im Datenspcipher &ihd dabei weiB, von einer Konfigumtion belegte schraf- 
fiert unterlegt. Koniigviraticincsa mussen dabei nicht aufaufeinanderfbleendcn Adres- 
sco Hegen. Konfiguration 18 besitzt keine Konfigurationsdaten, deshalb fuhrt auch 
kein^iger in den Datenspeicher. 
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Abbildung 9r Beispiel filr einen Cache-Zustand 
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Abbildung 10: Beispiel fur die Entfernung eines Eintrages 



Bine neue ^Configuration wird auf die Freiliste in den Datenspelcher geschrie- 
t>en. Dabei wind die: ZeigeriidbmiaUuu DaUauspeidUexs uidu awdi filler L L«- 
diglich fBr das letste Datenwort cin. Konfiguration wir d die Zeigednformation ver- 
andert, um anssuzeigen, dafl die Liste jetzt hier andert Der Zeiger auf die Freiliste 
wird auf den nachsten Eintrag gesetzt 

Es kann passieren, daB der Platz in der Freiliste nicht ausreicht, urn die an- 
kommenden Konfigurationsdaten vollstahdig auizunehmen. In diesem Fall muB 
entschieden werden, ob eine alte Konfiguration aus dem Datenspeicher entfemt 
wird oder ob die aktuelle Kcmfiguratioii nicht in den Cache aivfgenommen werden 
soil, Im letztcren Fall werden die nacnfolgenden Kon6guration$wo , rtcr vcrworfen. 
Da keine Zeiger vex&rjdert wurden, blelbt die Freiliste wie zuvor, lediglich emigc 
unbenurzte Datenworter besitzen einen andcrcn Wert 

Die Entscheidung, welche Konfiguration nicht mehr im Cache liegen soli (die 
allele odci die aktuelle) kann an der Anzah.1 der bcrcits gcschricbcncn Konfigu- 
ranonsworte festgemaoht werden, Es macht wenig Sinn* mehrere gecachete Kon- 
flgurationen zu enrferncn* urn Platz fur z. B, efoc lange RAM-Initialisierung zu 
schaffen, , . 

Wenn die alteste Konfiguration entfernt werden soil, wird sie dem FIFO entr 
nommen- Per zeiger des letzten Eintrags der Freiliste wird auf den dem FIFO 
entnommenen Wert gesetzt . Ab dieser Adresse Jcarm nun in der gewohnten Weise 
wcitcrkonfiguriert werden, 

Abbildung 10 zeigt dies an cinem Beispiel. Neu konfiguriert werden soli die 
Konfiguration mit der Nwnrricr 7. In Unterabbildung (a) ist die Freiliste vollstandig 
belegt women. Es wird entschieden, die alteste Korm^uration (Nr. 5) vom Cache 
zu entfernen und Konfiguration Nr. 7 weiter auf den Cache zu schreiben. Dazu 
wind der Zeiger am Endo der Freiliste auf den Start der chornoligon Konfisurarion 5 
mngesetzt, Dadurch wird die Freiliste wteder verlangert und es steht wieder Platz 
fur neue KondBifturationsworte zur Verfugung. Die in diesem Schritt betrorTenen 
Speicherteile sind in Unterabbildung (b) gegendiagonai schraffiert, Bei geeigneter 



.15 



m 20.01.02 20:34 FAXG3 Nr: 465211 von NVS:FAXG3.I0.0101/08958998118 (Seite 16von 18) 



t « 











4- 
4- 








4- 




4 
















_ 3 


♦ 






r—P- 






18 








— + 




4- 


* 










t 


free — : 











j 
i 


3 


4 




ie 







free- 





4- 

4- 




4- 




4- 








•< 




4- 




4- 















fa) fb) 
Abbildung il: Beispiel fur das l^Jschen eines Eintrags 

Aufteilung des Speiohcrs kann dies in einem Takt erfolgen. 

Mix dem Jetzten Ko nfigurati ouewort wird dor entsprcchcndc Zcigcr auf End© 
gesetzt und der Frsir.dger auf den nachsten Eintrag. 

Plate im Datenspeicher wird nicht nur dam wieder rreigcgeben, wenn dlcscr 
durch die Aufhahrne einer neuen Koniiguration benotigt wird.' Auch wenn der 
Verwaltunsspeichcr vol! ist und deswegcti ein Eintrag votn Verwaltungsspeicher 
cntfernt wild, muO die Frciliste im Datcnyppichcr angepafit werden. Hierzu mufl 
entweder der Zeigcr am Ende der Freilistc Oder am Ende der freiwerdenden Konfi- 
guration angepaBt warden. Beide Informationen fitehen hishef nicht zur Vexfiigung. 
Man kann sich jetzt duxch erne der Listen durchbewegen, bis das Ende erreicht 
wird. Dies ist jedoch zcitauiwendig. 

Altcrnati v wird im Verwaltungsspeicher ein zusatzlicher Zeiger auf da$ jewei- 
lige Ende einer Konfiguration abgelegt. Nun ist die Modifikation einfech m5glich> 
Der Frcriaaiiger &xhmt die Startadresse der alten iG&nfigiiration, und der Zeiger beim . 
letzten Konfigurationswort im Dateaspeicber wird auf den Freizeiger gesetzt Dieg 
wird in Abbildung 1 1 verdeutlicht Die Zeiger auf die Konfigurationsenden sind 
dabei gestrichelt ein^ezeichnet Unterabbildung (a) 2cigt die Situation vor dem 
* LSschcn, Unterabbildung (b) die danach. 

+Um<^e^ v^^efru^w^K^s .vncvg) !*w iwK. J*. 1 -me I 
10 Optirdleriuigder Busallokation ' 0 ^ 

Deceit werden die Busse explizit vom Router festgelegt. Das kann dazu xTJhren, 
daB zwei Konfijrurationen .sich auf einem Bus tiberlappen und deswegen nicht 
gleichzeitig ablaufca konnen, obwohl insgesamt genugend Busse zur Verfuguttg 
stunden. 

Algorithmisch macht es keinen Unterschied, uber welchen Bus einc Verbin- 
dung gefuhrt wird. Dcshalb kann man die BusaJlokation dynamisch von der Hard- 
ware durchfuhrca* laesen. Bine Konfigur ation spczifizicrt dazu nur noch, dafl sic 
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Abbildung 12: Beispiel fllr eine Busbelcgung 

eine Verbindung von I>unfct. A nach Punkt B innerhalb ciner Zeile benotigt. Wel- 
ch$r der vorhandenen Busse dann taisaohltcb vonvcndct wird, wahJt cm Arbitor in 
der Hardware aus. Dieser kann pro Zeile entweder verteilt uberj^achbarschaftebe- 
arichungan oder an zentraler Stelle fur die Zeile arbeiten. 

Zusatzlich konnen Bu$$e dyoamisch umgelegt wcrden, Dabei konnea zwci 
kurzc njchtuberlappen.de Busse, die aufgrund J&uJherer Belegung auf untexschiedli- 
ohc Busnuiiuiiona konfigui tcii wiwdcu, bci Fieiwerden vun Kessourcen auf dlesel- 
be Busnumnier umgelegt werdcn. Dadurch wixd Platz geschaJFen fur 'zrakunftige 
lingere Verbindungen. Dies 2eigt Abbildung 12. Hier blockiert die gestrichelte 
Verbindung den oberen Bus. Nachdem dies© freigegeben wurde, blockieren die 
kurzen Verbindungen immer noch 2 Busse fur langere Verbindungen. Durch ein 
dynamisches Verlegen des tintcren Busses urn einen Bus nach oben wird dieser 
wiedcr vollstSndig firei. 



1 1 Mehrere Obj ekte auf emer Adresse 

Beim Register-Objekt wurdc bereits gezeigt, dafl es moglich ist, mehrere identische 
Objekte auf derselben Adresse zu verwalten. Dies ist anchbei den anderen Objckjt- 
rypeh rnogjich. Algorithmisch ist es z, B, egal, welches FREG bzw. BKEQ zum 
Routen verwendet wird. Diese Entscheidung kann also ebenso von der Hardware 
gctrorTcn wciden. Daduicli wird mOglich; die vorhandenen Ressourcen bes- 
scr auf verschiedene Konfigurationen aiifeuteilen, so daB diese dann parallel und 
gleichzeitig ausgefuhrt wcrden konnen, Ebenso ist es denkbar, z. B. die ALU in 
mehrfacher Ausfuhrung vorzusehen. Jede KoniSguration darf die ALU nur einmal 
verwendcn, Dadurch wird eine echt gleichzcitige Parailelausfflarung verschiedener 
Konfigurationeti moglich. • 

Die mehrfachcn Objekte erfordern dabej nicht notwendigerweise zusatzlichen 
Hardware-Aiifwand. Bei geeigneter Wahl von RechcnsoJt und $bertmgungosrcit auf 
den Bussen kann das Objekt im Zeitmultiplcxverfahren arbeiten. 
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